134 research outputs found

    Experiments in Clustering Homogeneous XML Documents to Validate an Existing Typology

    Get PDF
    This paper presents some experiments in clustering homogeneous XMLdocuments to validate an existing classification or more generally anorganisational structure. Our approach integrates techniques for extracting knowledge from documents with unsupervised classification (clustering) of documents. We focus on the feature selection used for representing documents and its impact on the emerging classification. We mix the selection of structured features with fine textual selection based on syntactic characteristics.We illustrate and evaluate this approach with a collection of Inria activity reports for the year 2003. The objective is to cluster projects into larger groups (Themes), based on the keywords or different chapters of these activity reports. We then compare the results of clustering using different feature selections, with the official theme structure used by Inria.Comment: (postprint); This version corrects a couple of errors in authors' names in the bibliograph

    Recherche d'une partition optimale sous contrainte d'ordre total

    Get PDF
    Projet CLORECUn des problemes de la classification automatique est de trouver une partition qui soit optimale pour un critere donne. Dans le cas ou les objets sont definis par une seule variable numerique la programmation dynamique trouve cette partition pour certains criteres. Nous proposons plusieurs criteres utilisables dans ce cadre. Plusieurs simulations et applications sont decrites

    Benefits of InterSite Pre-Processing and Clustering Methods in E-Commerce Domain

    Get PDF
    This paper presents our preprocessing and clustering analysis on the clickstream dataset proposed for the ECMLPKDD 2005 Discovery Challenge. The main contributions of this article are double. First, after presenting the clickstream dataset, we show how we build a rich data warehouse based an advanced preprocesing. We take into account the intersite aspects in the given ecommerce domain, which offers an interesting data structuration. A preliminary statistical analysis based on time period clickstreams is given, emphasing the importance of intersite user visits in such a context. Secondly, we describe our crossed-clustering method which is applied on data generated from our data warehouse. Our preliminary results are interesting and promising illustrating the benefits of our WUM methods, even if more investigations are needed on the same dataset

    Méthodes de discrimination non paramétrique asymptotiquement efficaces au sens de Bayes

    Get PDF
    Résumé disponible dans les fichiers attaché

    Partitioning Methods On Dissimilarity Matrices Set

    Get PDF
    International audienceWe introduce partitioning clustering models and algorithms that are able to partitioning objects taking into account simultaneously their relational descriptions given by multiple dissimilarity matrices. The aim is to obtain a collaborative role of the different dissimilarity matrices in order to obtain a final consensus partition

    Le systeme SICLA: Principes et architecture

    Get PDF
    Résumé disponible dans les fichiers attaché

    Langage communautaire, confiance et recettes de cuisine

    Get PDF
    National audienceDe nos jours, les sites de partage de connaissance communautaires représentent une part importante et grandissante du Web. Sur ces sites, les uti- lisateurs échangent des connaissances, en étant à la fois auteurs et lecteurs du contenu. Dans de telles circonstances, la communauté se structure autour d'une sémantique empirique qui lui est propre, et qui peut différer grandement des standards académiques des domaines concernés. L'analyse de cette sémantique à partir des bases de connaissance de référence traditionnelles peut alors se ré- véler insuffisamment pertinente pour prendre en compte ces comportements uti- lisateurs. Dans cet article, nous présentons une méthode pour construire notre propre com- préhension de la sémantique des contributions des utilisateurs, sans recours à une base de connaissance externe. Cette compréhension est rendue possible par une extraction de la connaissance présente dans les contributions analysées. Nous proposons une évaluation de la confiance imputable à cette compréhension dé- duite, afin d'évaluer la qualité du contenu de l'utilisateur. Ce taux de qualité ainsi calculé peut être considéré comme la mesure avec laquelle le contenu est com- préhensible par la globalité des utilisateurs de la communauté. Nous illustrons notre travail en analysant des recettes de cuisine fournies par des utilisateurs sur des sites Web de partage de recettes de cuisine
    • …
    corecore